@秒灵儿
2年前 提问
1个回答

对抗攻击怎么防御

安全小白成长记
2年前

防御对抗攻击有以下两种方法:

  • 第一种可以描述为不管有没有对抗样本,模型都能正确分类输入的样本:FGD表示在倒数第二层特征上基于均方根误差训练去噪器,LGD则是在最后一层特征层面基于均方根误差训练去噪器,CGD是在模型输出的概率分布层面用交叉熵损失函数训练去噪器。使用三种方法训练的去噪器可以迫使模型降低误差放大的效果,从而确保模型不会被对抗样本引入的误差逐层放大并干扰输出结果。

    图片

  • 第二类可以描述为,在模型输出前添加防火墙,从而过滤对抗样本:迫使网络将干净图像映射到简单分布,而异常样本由于噪声的加入导致其被映射到GMM中后,距离每个簇均值的马氏距离都很远,从而检测到异常样本。实验结果表明,在使用该方法作为防火墙后,模型的防御能力能够获得显著提升。

    图片